# Databricks notebook source
# MAGIC %md
# MAGIC # 数据预处理
# MAGIC 
# MAGIC 数据预处理是从数据中检测，纠正或删除损坏，不准确或不适用于模型的记录的过程。
# MAGIC 
# MAGIC 可能面对的问题有：
# MAGIC * 数据类型不同，比如有的是文字，有的是数字，有的含时间序列，有的连续，有的间断。
# MAGIC * 数据的质量不行，有噪声，有异常，有缺失，数据出错，量纲不一，有重复，数据是偏态，数据量太大或太小
# MAGIC 
# MAGIC 数据预处理的目的：让数据适应模型，匹配模型的需求
